SoSe2021

Folienübersicht

Modulübersicht

Data Science 2 -Einführung in Statistik und Experimentelles Design

Kurstruktur

  • Vorlesung (45min)
  • Übungen (45min)
    • synchron in BigBlueButton (Moodle)
    • Übungsmaterial (Daten, Aufgabenskript, Lösungsskripte) auf Moodle
    • Bearbeitung auf unserem RStudio Server, im Projektordner ‘DS2_SoSe2021’
      • Ich habe das alte Projekt ‘DS1_WiSe2021’ einfach umbenannt und alle Dateien in den ‘DS1_WiSe20_21’ Ordner geschoben.
      • Ihr müsst also im ‘Studenten’ Ordner wieder einen neuen Unterordner mit Eurem Namen erstellen!

Themenübersicht

VL Thema
1 Einführung in die mathematische Statistik und R Markdown
2 Wahrscheinlichkeitstheorie und theoretische Verteilungen
3 Hypothesenprüfung
4 Klassische Tests
5 Korrelation
6 Einführung in die statistische Modellierung, Regression
7 Einfache Varianzanalyse (ANOVA)
8 2-faktorielle Varianzanalyse (ANOVA)
9 Poweranalyse und Bestimmung des Samplingdesigns
10 Resampling Methoden
11 Verfahren der Epidemiologie

Einführung

Warum brauchen wir Statistik?

  • Erleichtert die Interpretation von Daten. ACHTUNG: Statistik stellt keine Fakten dar, sie beschreibt Fakten!!
  • Ökologische Systeme sind stochastisch, nicht deterministisch.
    • ‘Blaues Lackmuspapier verfärbt sich in Säure IMMER rot’ → statistische Analyse hier unnötig.
    • ‘Aspirin hilft nicht immer gegen Kopfschmerzen’ → Statistik hier nötig um die Wahrscheinlichkeit, dass ein Ereignis zufällig erfolgt, einschätzen zu können.
  • In jedem Vergleich wird es Unterschiede geben. Die Herausforderung liegt in der Unterscheidung zwischen realen Effekten und zufälliger Variabilität

Einführung

Statistik als Teil der Stochastik

Die Statistik ist ein Teilgebiet der reinen Mathematik und betrachtet das Sammeln, die Analyse, die Präsentation und Interpretation von Daten. Sie stellt somit die theoretische Grundlage aller empirischen Forschung dar.

Einführung

Teilgebiet 1

Deskriptive Statistik

  • = beschreibende, empirische Statistik
  • Vorliegende Daten werden in geeigneter Weise beschrieben, aufbereitet und zusammengefasst.
  • Hauptaufgabe der Statistikämter, Alltagsgebrauch
  • 2 Methoden:
    • Grafisch (Histogramm, Säulendiagramm) → Aussage über die Verteilung der Werte
    • Numerisch (Mittelwert, Varianz) → Aussage über Zentriertheit und Streuung

Einführung

Teilgebiet 2

Mathematische Statistik

  • = induktive, schließende Statistik, Inferenzstatistik
  • Eigenschaften einer Grundgesamtheit werden aus Daten einer Stichprobe abgeleitet.
  • Grundlage der Schätz-und Testverfahren ist die Wahrscheinlichkeitstheorie → Inferenzen sind nie sicher und werden als Wahrscheinlichkeiten ausgedrückt
  • Schätzverfahren (estimation): Berechnung von Stichprobenstatistik und Wertebereich indem Populationsparameter mit bestimmter Wahrscheinlichkeit vermutet wird (Konfidenzintervall)
  • Testverfahren (hypothesis-testing): setzt eine zu testende Hypothese voraus
  • schließt im weiteren auch Prognosen (forecasts/predictions) ein

Einführung

Teilgebiet 3

Explorative Statistik

  • = Hypothesen-generierende, analytische Statistik, explorative Datenanalyse (EDA)
  • Große Anwendung im Data Mining.
  • Von John W. Tukey in den 1970ern eingeführt.
  • Methodisch eine Zwischenform der Teilbereiche 1 und 2.
  • Verwendung von Daten um Hypothesen zu entwickeln, die dann mithilfe der mathematischen Statistik getestet werden können.

Unterschiedliche Fragestellung

  • Deskriptive Statistik: Wie kann man eine Verteilung eines Merkmals beschreiben?
  • Explorative Statistik: Was ist an einer Verteilung eines Merkmals bemerkenswert oder ungewöhnlich?

2 Aspekte der statistischen Analyse

Algorithmen vs. Inferenz

  • Bei Algorithmen geht es darum, was der oder die Statistiker/in tut, während es bei der Inferenz darum geht, warum er oder sie es tut und wie gut der Algorithmus ist.
  • Beispiel: Arithmetische Mittelwertsbildung ist der Algorithmus, der Standardfehler des Mittelwerts liefert einen Rückschluss auf die Genauigkeit des Algorithmus (= Inferenz).
  • Der Algorithmus kommt immer zuerst und die Inferenz folgt auf einer zweiten Ebene der statistischen Betrachtung.
  • Durch die computergestützte Zunahme an riesigen Datensammlungen hat es eine Revolution der computergestützten, statistischen Methoden (Algorithmen) gegeben, während sich die Inferenz, also die Theorie nach der zwischen konkurrierenden Methoden gewählt wird, etwas langsamer entwickelte.

Statistik in Zeiten der Computer-Ära

Ein Methodenüberblick

Klassische Inferenzstatistik

  • Frequentistische Inferenz
  • Bayes’sche Inferenz
  • Fisher’sche Inferenz und die Maximum-Likelihood-Schätzung
  • Parametrische Modelle (Regression, ANOVA, ANCOVA)

Frühe Methoden des Computerzeitalters

  • Empirische Bayes Methode
  • James-Stein-Schätzung und Ridge-Regression
  • Generalisierte Lineare und Additive Modelle (GLM, GAM)
  • Entscheidungsbäume CART (Classification und Regression Trees)
  • Überlebensanalyse (survival analysis) und Erwartungs-Maximierungs-Algorithmus
  • Jackknife und Bootstrap Methoden
  • Markov Chain Monte Carlo
  • ARIMA Modelle

Methoden des 21. Jahrhunderts

  • Großskalige Hypothesentests und Falscherkennungsraten
  • Sparse Modeling und Lasso Regression
  • Random Forests und Boosting
  • Neuronale Netzwerke und Deep Learning
  • Support-Vector Machines und Kernel Methoden
  • Empirische Bayes Schätzstrategien

Interview mit Travor Hastie und Bradley Effron

Zwei statistische Haupttheorien

  • In den Naturwissenschaften herrscht ein wahrer Glaubenskrieg, ob die (bekannteren) frequentistische (häufigkeitsbasierte) oder (zumindest in Deutschland) nicht so populäre Bayes’sche Statistik als Grundlage zur Auswertung von Experimenten dienen soll, dabei sind Resultate oftmals sehr ähnlich.
  • Beide Ansätze sind in sich geschlossene Theorien und daher als solche weder “richtig” noch “falsch”. Wohl aber stellt sich diese Frage in Bezug auf deren Anwendung.
  • Der frequentistische Ansatz beruht allein auf Beobachtungen, d.h. er ist experimental oder induktiv
  • Die Bayes’sche Methode kombiniert erhobene Daten mit Kenntnissen, die aus vorherigen Studien stammen oder Expertenmeinungen widerspiegeln, um zu einem Ergebnis zu gelangen.

Frequentistische vs. Bayes’sche Statistik

Vergleich

Merkmal Frequentistische Statistik Bayes’sche Statistik
Definition Wahrscheinlichkeits- begriffs Relative Häufigkeit, mit der ein Ereignis in einer großen Anzahl gleicher, wiederholter, voneinander unabhängiger Zufallsexperimenten auftritt Grad persönlicher Überzeugung (englisch degree of belief), welche auch auf einmalige Ereignisse oder zur Bewertung von Hypothesen herangezogen werden kann
Parameter fester Fixpunkt (z. B. Effektgröße) Zufällig, besitzt eine Wahrscheinlichkeitsverteilung
Vorwissen (prior knowledge) irrelevant im Modell berücksichtigt

>250 Jahre Statistik

Bevölkerungsstatistik (~19 Jhd.)

  • Volkszählungen älteste bekannte Anwendungen der Statistik (erste Volkszählung 1801).
  • Bürokratisches Sammeln großer Datenmengen über Bevölkerung → viktorianische Statistiker System entwickelt zur Erfassung von Daten zur Volksgesundheit → führte zu politischen Reformen und Entstehung ‘Public Health Act’;
  • Bevölkerungsstatistiker Auffassung, dass statistische Variation Fehlerquelle sei, die man abschaffen müsste; Fokus hier auf Durchschnittswerte (Idee der perfekten Mitte, Lehre des Determinismus).
  • Darwins Theorie der biologischen Variation schuf Rahmen für Konzeption neuer statistischer Methoden; Fokus verlagert sich auf die Varianz.

>250 Jahre Statistik

Mathematische Statistik

  • Späte 19 Jhd., Anfang 20. Jhd.
  • Mathematische Statistik entstand aus der mathematischen Wahrscheinlichkeitstheorie durch Werke von Bernoulli, Laplace, Gauß und DeMoivre.
  • Teilaspekte von Kontinentaleuropa ausgehend, aber meiste von Briten entwickelt. Z.B.
    • Francis Galton (Vetter von Charles Darwin): Begründer der Biometrie, entwickelte Grundlagen der Regression und Korrelation
    • Karl Pearson: arbeitete \(\chi^2\)-Verteilung aus, entwickelte parametrischen Korrelationskoeffizienten
    • Ronald A Fisher: entwickelte Grundlagen der Varianzanalyse, Planung von Experimenten, Zufallsanordnungen

Anstoß zur Wahrscheinlichkeitsrechnung

2 Historische Aufgaben aus der Kombinatorik

Die Aufgabe von Galileo Galilei

Um 1615 sollen italienische Spieler (in einigen Quellen heißt es auch der Fürst von Toskana) Galilei folgende Frage gestellt haben, welche eine viel diskutierte, Jahrhunderte alte Aufgabe darstellte:

Wie groß sind die Wahrscheinlichkeiten, mit 3 Würfeln eine Summe von 9 oder 10 zu erhalten?

Die damaligen Theoretiker behaupteten, dass beide Summen gleich wahrscheinlich seien. Aus ihrer Erfahrung wussten allerdings die Glücksspieler, dass die 10 häufiger als die 9 autritt.

Das De-Méré-Paradoxon

Als eigentliche Geburtsstunde der mathematischen Wahrscheinlichkeitsrechnung gilt das Jahr 1654. Chevalier de Meré, ein Philosoph und Literat am Hofe Ludwigs des XIV, wandte sich mit folgendem Problemen an den bekannten Mathematiker Blaise Pascal:

Was ist wahrscheinlicher, in vier Würfen eines einzelnen Würfels mindestens eine ‘6’ zu würfeln ODER in 24 Würfen eines Würfelpaars mindestens eine ‘Doppelsechs’ zu erzielen?

Auch dieses Probleme war damals schon viele Jahrhunderte alt. Allerdings waren die früheren Lösungen falsch.

Wichtiges zum Schluss

Grundsätzlich gilt in der Statistik

  • Statistische Analysen können NICHT falsch gesammelte, unvollständige oder unzuverlässige Daten kompensieren!
  • Statistische Auswertungen sollten nicht einfach kochbuchmäßig ausgeführt werden (zunehmende Gefahr mit aktuellen Computerprogrammen und zugänglichen Programmierskripten)
  • Hintergründe und Voraussetzungen der Methoden sollten bekannt sein → dabei sind die mathematischen Formeln weniger wichtig als der zugrundeliegende philosophische Ansatz.

Übungsaufgabe

Aufgabe 1: Die Aufgabe von Galileo Galilei

Wie groß sind die Wahrscheinlichkeiten, mit 3 Würfeln eine Summe von 9 oder 10 zu erhalten?

Herangehensweise

  • Theoretisch: Überlege Dir zuerst welche theoretischen Wahrscheinlichkeiten beide Summen haben könnten.
  • Empirisch: Nun ermittle empirisch, ob die Summe 9 oder 10 häufiger vorkommt.
    • Nimm 3 unterschiedlich aussehende Würfel und werfe sie zusammen. Notiere Dir die Summe der drei Augenzahlen.
    • Wiederhole den Wurf, sprich die ‘Messung’, mindestens 20-mal.
    • Berechne aus den mind. 20 Würfen (Messungen) die relativen Häufigkeiten der Summe 9 und 10. Passen diese Werte zu Deiner theoretischen Vorhersage?
Bildquelle: Wikipedia (CCO 1.0)

Aufgabe 2: Die Aufgaben des Chevalier de Meré

Was ist wahrscheinlicher, in vier Würfen eines einzelnen Würfels mindestens eine ‘6’ zu würfeln (Variante A) ODER in 24 Würfen eines Würfelpaars mindestens eine ‘Doppelsechs’ zu erzielen (Variante B)?

Herangehensweise

  • Theoretisch: Überlege Dir zuerst welche theoretischen Wahrscheinlichkeiten beide Varianten haben könnten.
  • Empirisch: Nun ermittle empirisch, ob die Variante A oder B häufiger vorkommt.
    • Führe Variante A und B getrennt durch und notiere Dir die Gesamtaugenzahl bei jedem Wurf (= Messung).
    • Wiederhole jede Messung mindestens 20-mal.
    • Berechne aus den mind. 20 Messungen die relativen Häufigkeiten der ‘6’ (Variante A) und der ‘Doppelsechs’ (Variante B). Passen diese Werte zu Deiner theoretischen Vorhersage?
Bildquelle: Wikipedia (CCO 1.0)

Aufgabe 3: Erstellung eines R Markdown Dokuments

Überführe Deine Fallstudie aus DS1 in eine R Markdown Datei, welches als Output-Format ein PDF erstellt:

Fragen?